Visión general y paisaje de evolución arquitectónica

Pasamos del éxito fundamental de AlexNet a la era de redes profundas extremas Redes Neuronales Convolucionales (RNC). Este cambio requirió innovaciones arquitectónicas profundas para manejar una profundidad extrema manteniendo la estabilidad durante el entrenamiento. Analizaremos tres arquitecturas fundamentales—VGG, GoogLeNet (Inception), y ResNet—comprendiendo cómo cada una resolvió aspectos diferentes del problema de escalabilidad, sentando las bases para una interpretación rigurosa del modelo más adelante en esta lección.

1. Simplicidad estructural: VGG

VGG introdujo el paradigma de maximizar la profundidad utilizando tamaños de kernel extremadamente uniformes y pequeños (exclusivamente filtros convolucionales 3x3 apilados). Aunque computacionalmente costoso, su uniformidad estructural demostró que la profundidad cruda, alcanzada mediante mínima variación arquitectónica, fue un factor principal del aumento de rendimiento, consolidando la importancia de campos receptivos pequeños.

2. Eficiencia computacional: GoogLeNet (Inception)

GoogLeNet contrarrestó el alto costo computacional de VGG priorizando la eficiencia y la extracción de características multiescala. La innovación central es el módulo Inception, que realiza convoluciones paralelas (1x1, 3x3, 5x5) y agrupamiento. Críticamente, utiliza convoluciones 1x1 como cuellos de botella para reducir drásticamente el número de parámetros y la complejidad computacional antes de operaciones costosas.

Desafío clave de ingeniería

Residual Learning: ResNet

ResNet solved the degradation problem by introducing the identity mapping (skip connection). This non-sequential shortcut allows the network to learn a residual function $F(x)$ instead of a direct mapping $H(x)$, effectively ensuring that adding more layers can only improve or maintain performance, dramatically improving optimization stability.

Diagram showing a ResNet skip connection architecture

Question 1

Which architecture emphasized structural uniformity using mostly 3x3 filters to maximize depth?

AlexNet

VGG

GoogLeNet

ResNet

Question 2

The 1x1 convolution is primarily used in the Inception Module for what fundamental purpose?

Increasing feature map resolution

Non-linear activation

Dimensionality reduction (bottleneck)

Spatial attention

Critical Challenge: Vanishing Gradients

Engineering Solutions for Optimization

Explain how ResNet’s identity mapping fundamentally addresses the Vanishing Gradient problem beyond techniques like improved weight initialization or Batch Normalization.

Describe the mechanism by which the skip connection stabilizes gradient flow during backpropagation.

Solution:
The skip connection introduces an identity term ($+x$) into the output, creating an additive term in the derivative path ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). This term ensures a direct path for the gradient signal to flow backwards, guaranteeing that the upstream weights receive a non-zero, usable gradient signal, regardless of how small the gradients through the residual function $F(x)$ become.